智能论文笔记

A Study on Token Pruning for ColBERT

Carlos Lassance , Maroua Maachou , Joohee Park , Stéphane Clinchant

分类：自然语言处理

2021-12-13

最近已提出COLBert模型作为基于有效的伯特伯爵的排名。通过采用迟到的互动机制，COLBert的主要优势是文件表示可以预先预先计算。但是，该模型的大缺陷是索引大小，其与集合中的令牌数量线性缩放。在本文中，我们研究了COLBERT模型的各种设计，以攻击此问题。虽然已经探索了压缩技术以减少指数大小，但在本文中，我们研究了COLBERT的令牌修剪技术。我们比较简单的启发式机器，以及一层注意机制，选择令牌以保持索引时间。我们的实验表明，COLBert指标可以在MS Marco Conserfer集合上修剪高达30 \％，而无需显着下降。最后，我们在MS MARCO文件上实验，揭示了这种机制的几个挑战。

translated by 谷歌翻译

相关文章
笔记